O nascimento da GPU foi uma ruptura radical impulsionada pelo "imperativo em tempo real": a exigência inegociável de renderizar cenas 3D complexas dentro de uma janela de $1/60^{th}$ de segundo (16,67ms). Enquanto os CPUs seguiram uma trajetória multicore otimizada para execução serial de baixa latência, eles atingiram um limite à medida que as resoluções aumentaram.
1. A Restrição de 16,67ms
Na metade dos anos 90, o gaming alcançou uma crise. Um CPU serial, lidando com IA e física, não conseguia calcular milhões de valores de pixels rapidamente o suficiente para manter o movimento fluido. Isso forçou a criação de hardware dedicado para deslocar a repetitiva pipeline gráfico.
2. Interleaving de Linhas de Varredura (SLI)
Antes de arranjos paralelos internos, a 3dfx introduziu Interleaving de Linhas de Varredura (SLI). Usando dois cartões físicos para calcular linhas horizontais alternadas, a indústria mudou seu foco da velocidade de um único thread para o throughput bruto de "força bruta".
3. Throughput versus Latência
A gênese da GPU priorizou a área de silício para unidades aritméticas simples em vez de predição complexa de ramificações. Essa filosofia de "largura e lentidão" permitiu que as GPUs manipulassem a matemática repetitiva de triângulos enquanto o CPU se concentrava em lógica não paralela.